info

Googleのプロジェクトアストラ、Veo、そしてジェミニアップグレードがAIの進化を競う

これはGoogleのOpenAIへの応答です。

一般的なAI、日常的に真に利用できるAI、今こんな状態でプレスカンファレンスを開くのは恥ずかしいでしょう。

5月15日の早朝、毎年恒例の「テクノロジーの春祭り」Google I/O開発者会議が正式に始まりました。110分のメインキーノートで人工知能は何回言及されたのでしょうか?Googleが数えました:

はい、AIは毎分話題になっています。

生成AIの競争は最近新たなクライマックスに達し、このI/O会議の内容は自然に人工知能を中心に展開されました。

「1年前、このステージで私たちは初めてネイティブマルチモーダル大規模モデル、ジェミニの計画を共有しました。それは新しいI/Oの世代を示しました」とGoogleのCEOスンダー・ピチャイは言いました。「今日、私たちは皆がジェミニの技術の恩恵を受けられることを願っています。これらの画期的な機能は、検索、画像、生産性ツール、Androidシステムなど、多くの側面に浸透します。」

現在、1.5 Proと1.5 Flashが公開プレビューで利用可能で、Google AI StudioとVertex AIで100万トークンのコンテキストウィンドウを提供しています。今、1.5 ProはAPIを使用する開発者とGoogle Cloudの顧客向けに200万トークンのコンテキストウィンドウも提供しています。

さらに、ジェミニナノは純粋なテキスト入力から画像入力に拡張されました。今年後半、Pixelから始まるGoogleはマルチモーダルジェミニナノを発表します。これは、モバイルユーザーがテキスト入力だけでなく、ビジュアル、音、話し言葉などの文脈情報も理解できることを意味します。

ジェミニファミリーに新しいメンバーが加わります:ジェミニ1.5フラッシュ

新しい1.5フラッシュは速度と効率のために最適化されています。

新世代オープンソース大規模モデル、ジェマ2

今日、Googleはオープンソースの大規模モデル、ジェマへの一連のアップデートも発表しました - ジェマ2が登場しました。

紹介されたように、ジェマ2は画期的なパフォーマンスと効率を達成することを目指した新しいアーキテクチャを利用しており、新しいオープンソースモデルのパラメータは27Bです。

長い動画については、Veoは60秒以上の動画を生成することができます。これは、単一のプロンプトまたは一連のプロンプトを提供することで物語を語ることができます。これは、映像制作における動画生成モデルの適用にとって重要です。

Veoは、生成的クエリネットワーク(GQN)、DVD-GAN、画像から動画への変換、Phenaki、WALT、VideoPoet、Lumiereなど、Googleの視覚コンテンツ生成に関する作業に基づいています。